Comment Filtering System

overview

我们的系统可以被分成两个部分，第一个部分是 illegal text detection, 第二个部分是高质量评论筛选两个部分的模型分别训练

在上半部分，我们使用二分类的数据集对FastText模型和Bert 进行训练

在下半部分，我们通过筛选出的高质量评论对 Auto-Encoder 进行训练

最后我们的模型的运行效果应该是，当检测文本时，首先对文本进行敏感词识别，如果存在敏感词，那么就从上面走如果没有识别到敏感词，就将文本输入Fasttext model, 进行第二次筛选，如果Fasttext 和敏感词识别都呈现阳性那么这个 text 会被判定成非法文本

如果都识别成阴性，则会进入下游的模型进一步筛选如果一阴一阳，那么又bert 做最后一次判断决定其是否非法

进入下游的文本首先会经过bert 转成矩阵，训练好的 auto encoder 会尝试进行重建，如果重建误差在阈值范围内那就是高质量评论，反之亦然

Introduction

不文明用语过滤

数据集

数据增强

同音替换

文本分类 ML 方法

MultinomialNB RandomForest XGBoost LightGBM SVC ...

文本分类 DL 方法

FastText TextCNN LSTM BERT

模型选择

最终选择 FastText 和 BERT 进行上游过滤

高质量文本筛选

假设高质量评论应该是高赞评论通过将高赞评论输入到预训练语言模型BERT中进行特征提取，得到每个评论的矩阵表示

基于我们的假设，高赞评论是高质量的评论，但是这并不意味着低赞评论就是低质量评论
比如有些评论的点赞量较少可能只是因为这条评论的曝光度不够
同时我们认为仅凭少量的人力人工筛选评论也是不现实且不客观的，毕竟高赞评论经历了大量人群的检验

仅通过高赞的评论，学习高质量评论的特征或许可以用Auto-Encoder来解决这个问题

Algorithm

Tutorial

assignment

Assignment

As-1

As-2

Lab-1

Lab-2

Lab-3

Lab-4

GAMES101

Assignment-1

Assignment-2

Assignment-3

Assignment-4

Lab

Lecture

Peoject

CSCN

Ploidy

Comment Filtering System ​

overview ​

Introduction ​

不文明用语过滤 ​

数据集 ​

数据增强 ​

文本分类 ML 方法 ​

文本分类 DL 方法 ​

模型选择 ​

高质量文本筛选 ​

Auto Encoder ​